Reprodução de Experimentos Científicos Usando Nuvens
نویسندگان
چکیده
Resumo. Workflows científicos são utilizados para modelar experimentos computacionais. Os resultados desses experimentos são publicados e compartilhados na forma de artigos publicados em veículos científicos. Entretanto, para que tais resultados sejam cientificamente válidos eles devem ser passíveis de reprodução. Pesquisadores da área de eScience têm a necessidade de compartilhar os artefatos utilizados para a geração dos resultados, dentre eles, os dados de entrada do workflow e os parâmetros utilizados no experimento. Entretanto, reproduzir um experimento baseado nestes artefatos não é uma tarefa trivial. Apesar de o workflow especificar o protocolo de execução, com dados e parâmetros de entrada disponíveis, nem sempre o ambiente de execução está acessível. Programas que foram originalmente utilizados podem estar obsoletos, versões de bibliotecas podem não ser mais compatíveis além de ambientes que podem não estar mais disponíveis para o cientista. Esse cenário se torna ainda mais complexo quando tratamos de reproduções de longo prazo, como por exemplo, diversos anos após a execução que levou aos resultados publicados. Diante deste problema, este artigo propõe uma abordagem desenvolvida na forma de um componente de software chamada ReproeScience para reprodução do ambiente onde o experimento computacional foi originalmente executado, de forma que o mesmo possa ser instanciado sob demanda e reproduzido em iguais condições. Para isto é proposta a utilização da tecnologia de máquinas virtuais de nuvens de computadores como arcabouço básico.
منابع مشابه
Distribuição de Bases de Dados de Proveniência na Nuvem
Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de com...
متن کاملCaptura de Metadados de Proveniência para Workflows Científicos em Nuvens Computacionais
Workflows are scientific abstractions used in the modeling of scientific experiments. High performance capabilities such as clusters and grids are often required to run the experiments. Cloud computing is starting to be adopted by the scientific community. However, the cloud environment is still incipient in collecting and recording workflow provenance. This paper presents an approach to suppor...
متن کاملSciCumulus-ECM: Um Serviço de Custos para a Execução de Workflows Científicos em Nuvens Computacionais
Resumo O conceito de computação em nuvem vem se firmando como um novo modelo computacional que proporciona aos cientistas uma oportunidade de se utilizar diversos recursos distribuídos para a execução de experimentos científicos. Muitos dos experimentos científicos existentes, modelados como workflows científicos, devem controlar a execução de atividades que consomem e produzem grandes volumes ...
متن کاملUso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos
Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de p...
متن کاملSGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência
Resumo. Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um r...
متن کامل